其他
为什么ChatGPT用强化学习而非监督学习?
基于Schulman的演讲内容,以色列巴伊兰大学教授Yoav Goldberg对强化学习在大型语言模型应用必要性作了深度解读,进一步对比论证了监督学习与强化学习的特点,并为未来改进提供了思路。
(以下内容由OneFlow编译发布,转载请联系OneFlow获得授权。来源:https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81)
1
为何使用强化学习?
为何使用强化学习?
2
背景:监督学习vs强化学习
背景:监督学习vs强化学习
3
多样性论证
多样性论证
4
理论论证
理论论证
5
核心论证
核心论证
6
教导模型放弃回答
教导模型放弃回答
7
模型窃取 / 蒸馏的影响
模型窃取 / 蒸馏的影响
8
无人类反馈的强化学习
无人类反馈的强化学习
我们可以使用人类提供的指令-响应对进行训练,不过,要让模型生成自己的响应,而不是直接复制人类响应,然后用在监督方式下进行训练的专用文本对比模型(text comparison model)将模型生成的响应与人类提供的响应进行比较,这样就获得了一种自动打分的办法。